其他
文章发表:MicrobiotaProcess - 微生物组数据分析新工具
这个系列今年除了说出版了一本书之外,就没有再更新了,再不写点东西,2024都要来了。
MicrobiotaProcess这个包首次在公众号里介绍是在2020年,那时候还没有设计复杂的数据结构来存储和管理宏基因组数据。时隔三年的打磨,最终文章于今年发表在《The Innovation》期刊上(影响因子32.1),我们第一篇发表在这个期刊上的文章,将期刊的影响因子拉高了9.1分,期待这一篇文章也能够有所贡献。
MicrobiotaProcess定义了MPSE数据结构以整合微生物组学上游输出的多种不同格式数据以及下游的输出数据,并配合整洁语法框架(tidy framework)开发的分析功能(如数据过滤与标准化,系统进化转换及差异物种鉴定与可视化等),为微生物组学数据的下游分析提供了统一且简洁的分析语法,促进了微生物组学数据的管理与可重复分析。该软件当前支持16S/ITS/18S、宏基因组、宏转录组以及相关生态学数据的处理与分析。
首先是能够帮助大家存储和管理好数据,这个管理当然是包括操作,因为数据不是一个简单的表格,而是多种不同的信息关联在一起,对一个数据的操作,可能需要对相关的数据进行调整,不然后续分析容易出错。所以此处说的管理,就有这层意思,让你不太容易出错。
第二点,链接上下游分析,以及下游的分析是基于tidyverse这样的理念,分析的输入是MPSE对象,输出也是MPSE对象,分析的函数可以搭积木变成pipeline。
最后再来一点分析实例的图。
结果的可视化,可以说是YuLab的保留曲目了。另外我还发现了R生态中,类似LEfSE的可视化,全部是基于ggtree来做的(不排除有别的实现我没发现),而且是参考了我们早期的代码。